系统分析人类和小鼠组织特异性环状RNA
8月20日,武汉大学基础医学院何春江教授团队在著名生物信息学杂志Briefings in Bioinformatics发表了一项环状RNA的重要工作,系统分析了人类和小鼠组织特异性环状RNA的表达情况(Xia et al., 2016)。
在本文中,作者主要利用ENCODE和NCBI GEO数据库的在线资源进行了组织特异性分布的分析。作者共从ENCODE数据库收集了16种成年人组织(共计60个样本)和10个人类胎儿组织(共计28个样本)。从NCBI GEO 数据库的数据集GSE64283收集了5种人类胎儿组织(11个样本),从数据集GSE61991收集了9种小鼠组织(15个样本),数据集GSE74747中收集了9个样本。这些样本除了来源于GSE74747的之外的都是经过去除核糖体RNA处理的,GSE74747来源的数据没有去除核糖体RNA,因此作者用SortMeRNA工具将其中的rRNA数据过滤掉之后与其他样本合并进行分析。具体的样本信息如下:
表1 所收集的组织样本数据情况(来自(Xia et al., 2016))
那么作者以什么标准界定组织特异性的circRNA呢?上述的数据都是RNA-seq的数据,作者首先从中分析出所包含的circRNA,用到了CIRI、circRNA_finder和find_circ工具。三种工具的任意一种筛选出的数据都作为备选,筛选条件是>=2 junctionreads。鉴定到的环状RNA再在各种组织来源的数据之间比对分析,那些仅仅存在于一种组织内的就被定义为组织特异性circRNA(TS circRNA)。
本文中作者一共比较了123组RNA-seq的数据,依据上述筛选鉴定条件,鉴定到数量非常庞大的TS circRNA,在16种成年人组织样本中找到140681种TS circRNA,在15种人类胎儿组织样本中找到了164069种TS circRNA,在9种小鼠组织样本中找到了15980种TS circRNA。没错!人类中找到了15万种左右的TS circRNA!可见circRNA在组织中的多样性有多复杂!
在成年人和胎儿的TS circRNA有1143367是完全重叠的,说明在人类生长发育过程中TS circRNA的种类还是相对稳定的。从另一个角度来看,依然有一小部分成年人组织和一定数量的胎儿组织中特异存在的TS circRNA。从总体circRNA数据量来看,成年组织中TS circRNA占到了总circRNA的11.9% (140681 of 1184752),胎儿组织中占到了10.4%(164 069 of 1 580 940),小鼠组织中占到34.3%(15 980 of 46 579)。这初步表明circRNA的组织表达特异性是一个非常重要的特征。
图1 作者鉴定到的TS circRNA占总circRNA的比例(来自(Xia et al., 2016))
作者进一步分析了这些circRNA与所对应的基因的关系。与之前其他研究中的结果相似,这些TS circRNA在所对应的基因中绝大部分都涵盖了不超过3种的circRNA。有趣的是,在人类成体和胎儿中大于10种circRNA的基因反而非常多,原因还不清楚。
图2 对应基因的circRNA数目分布(来自(Xia et al., 2016))
这些TS circRNA所对应的基因组区域基本都是由外显子构成的。在小鼠中84.3%的对应于外显子,3.5%对应于内含子,而12.2%对应于基因间序列。在成人组织中,69.2%的对应于外显子,22.6%对应于内含子,8.2%对应于基因间序列。人类样本中高达22.6%的TS circRNA对应于内含子区非常有意思,是否暗含着什么特殊的信息或机制还不得而知。
图3 TS circRNA所对应的基因组区域情况(来自(Xia et al., 2016))
这些TS circRNA所对应的基因类型也是蛮有趣的问题。之前的报道也表明绝大部分的circRNA都是由pre-mRNA形成的,少数的会由lncRNA或者lncRNA与mRNA与mRNA重叠的区域构成。作者的分析表明所鉴定到的TS circRNA的情况也基本与此吻合。
图4 TS circRNA对应基因的特征(来自(Xia et al., 2016))
作者进一步分析了所鉴定到的TS circRNA的保守性情况,在小鼠和人的胎儿同种组织中进行比较分析。在大脑中找到了639种保守性的TS circRNA,心脏中找到了27种,肝脏中找到了16种,皮肤中7种,肺中1种。在小鼠和人的成体中同种组织的保守性circRNA在心脏中找到了57种,肝脏中36种,皮肤中5种,肺中2种。
图5 TS circRNA保守性分析(来自(Xia et al., 2016))
左:小鼠与人胎儿同种组织比较;右:小鼠与人成体同种组织间比较。
所鉴定到的TS circRNA在组织中的表达量情况怎么样呢?作者针对这个问题分析了TS circRNA的表达量情况,发现在人类成体组织中食道,心脏,肠和肝脏的circRNA表达相对较高。人类胎儿组织中脑,骨骼肌和子宫的表达量较高。而在小鼠中大脑和睾丸中表达量相对较高。有些基因所对应的circRNA在不同组织样本中呈现出不同的组织特异性circRNA形成方式。比如心脏特异性基因CORIN共形成了40种心脏特异性的circRNA,其中25种为成年特异性的。另一个肝脏特定表达的基因ALB更奇怪,该基因共可形成160种circRNA其中95种为成年组织特异性的,33种为胎儿特异性的。这些结果充分说明环状RNA的形成很可能存在组织和发育状态的特异性机制,会不会也存在疾病特异性的机制是非常有趣的问题。
图6 TS circRNA组织表达丰度分析(来自(Xia et al., 2016))
为证实所分析的TS circRNA是否真实,作者选取了C57小鼠的五种组织进行反转录PCR验证。作者分别提取了脑、心脏、肝、肺和胸腺提取总RNA,反转录PCR验证组织特异性circRNA的表达情况。大脑的RIMS1基因,心脏的PDE4DIP基因,肝脏的ADK基因,肺脏的LAMP3基因和胸腺的SATB1基因。结果证实了这些TS circRNA确实与前期分析的情况一致。
图7 小鼠TS circRNA反转录PCR验证(来自(Xia et al., 2016))
这些TS circRNA所对应的基因的功能也非常有特定,总体而言绝大部分与组织发育有关。作者通过GO分析,发现这些TS circRNA所对应的基因与所在组织的发育过程密切相关。例如人的成体和胎儿的心脏特异性的circRNA对应基因主要在心肌发育过程中起作用。小鼠中的情况也大致如此。
图8 TS circRNA对应基因功能与通路分析(来自(Xia et al., 2016))
已报道的circRNA功能模型中,竞争性结合microRNA或蛋白的报道非常多,因此作者也初步分析了所鉴定到的TS circRNA结合microRNA和蛋白的情况。作者用TargetScan分析了TS circRNA结合microRNA位点(miRNA response elements ,MRE)的情况。在小鼠的15980种TS circRNA数据中共鉴定到了264728个 MREs。成年人的140681种TS circRNA数据中共鉴定到了3047871个 MREs。在人胎儿的164069种TS circRNA数据中共鉴定到了3482558个 MREs。
作者也进一步利用STARBASE数据库的资源分析了TS circRNA结合蛋白的情况。STARBASE数据库提供的CLIP-Seq数据集涵盖了37中RBPs,作者分析了TS circRNA与这些RBPs的结合情况,结果表明TS circRNA结合蛋白的情况存在组织特异性差异。比如AGO1和AGO2在各个组织中的结合情况均较多,而AGO3和AGO4则非常少。而比较成年个体与胎儿中的情况,发现很多的RBPs在胎儿和成体中的结合情况差异非常大,例如AGO4主要在胎儿阶段起作用,而AGO1和AGO2主要在成年中起作用。
图9 TS circRNA蛋白结合位点分析(来自(Xia et al., 2016))
作者将所分析得到的组织特异性circRNA相关数据整理后做成了一个专门的数据库:TSCD (Tissue-Specific CircRNA Database)该数据库的网址:http://gb.whu.edu.cn/TSCD
图10 TSCD数据库界面(来自(Xia et al., 2016))
本文通过系统分析在线的RNA-seq数据首次实现了组织特异性circRNA的系统分析,对于circRNA的研究意义重大。但由于本文所使用的资源主要为已上传的RNA-seq数据,样本量还相对比较有限,今后可通过全世界的科学家不断共享相关数据来增加本数据库的信息量和准确性。
本文为环状RNA的研究提供了极好的数据库平台,但兴奋之余我们也应该清醒的意识到,本文所使用的数据资源也存在一些潜在的问题,比如组织特异性RNA的制备方面,以大脑为例,提取总RNA的过程中非常难以将其中的非大脑组织完全清除,比如血管等,因此这些组织的干扰是需要考虑的问题。此外整合网络资源的过程中也存在不同来源样本间匹配性的问题,两个或多个独立的实验室进行的RNA-seq实验会存在操作误差,样本随机或环境因素等外在潜在干扰条件的差异导致的数据间匹配性问题也可能会影响到本项工作所得出结论的准确性。因此关于组织特异性circRNA表达的问题,还需要各位同行的通力合作,通过不懈的努力不断验证和完善才能最终获得更有价值的信息。
但无论如何,本文对环状RNA研究的贡献还是非常大的,为组织特异性circRNA研究提供了一个平台资源,为深入认识环状RNA的性质,揭开环状RNA的神秘面纱提供了全新的工具。
参考文献:
Xia, S., Feng, J., Lei, L., Hu, J., Xia, L., Wang, J., Xiang, Y., Liu, L., Zhong, S., Han, L., et al. (2016). Comprehensive characterization of tissue-specific circular RNAs in the human and mouse genomes. Brief Bioinform.
1
动脉粥样硬化相关环状RNA circANRIL调控核糖体RNA成熟作用过程